查看原文
其他

[论文推荐|AAAI2021] MANGO:一种注意力掩码引导的单阶段场景文本检测与识别方法

本文简要介绍AAAI2021录用论文“ MANGO: A Mask Attention Guided One-Stage Scene Text Spotter”的主要工作。受视觉机制的启发,本文将text spotting视为一个attending然后reading的问题,直接一次性读取所有关注文本区域的文本内容,并基于此提出了一种新颖的单阶段端到端识别技术MANGO。

一、背景介绍


绝大多数End-to-endtext Spotting算法通常均为两阶段网络,采用ROI操作来连接检测模块和识别模块,识别模块对检测结果比较敏感。现有的单阶段End-to-end Text Spotting算法仅检测识别单个字符,没有考虑字符间的上下文语义信息[1]。实际上,当人们阅读场景文字时,只需要指出文字粗略位置并给出识别结果,而无需精确描绘文本的边界轮廓。受到该视觉机制的启发,本文将Text Spotting视为一个Attending然后Reading的问题,直接一次性读取所有关注文本区域的文本内容,并基于此提出了一种新颖的单阶段端到端识别技术MANGO。作者来自海康威视、同济大学、浙江大学。

二、方法概况



1.     MANGO

1.1    网络结构

整体方法流程如下图所示:

MANGO主要由三个可学习的模块组成:

1. 用于学习文本实例的空间注意力的位置敏感注意力模块(PMA),该模块由实例级注意力模块(IMA)和字符级注意模块(CMA)组成;

2. 用于将关注的文本实例特征解码为字符序列的序列解码模块;

3. 用于在推理阶段提供粗略文本位置信息的全局文本中心线分割模块。 

MANGO的优势在于:

- 无需ROI操作,无需复杂后处理
- 检测和识别过程可解耦,多数场景可以仅使用粗略文本位置(甚至无文本位置)信息进行训练。 

1.2    PMA模块

单阶段End-to-end Text Spotting的关键步骤是建立文本实例到最终字符序列的一一映射。受到SOLOv2[2]模型的启发,我们发现可以通过将不同实例映射到不同的通道来实现文本实例到特征的映射,即不同格子负责预测这个格子中目标的实例,仅将其特征映射到一个单独的同道中去。在本文中,如果一个文字串的GT与某个格子占比大于一定阈值,则该格子对应的特征图将会预测这个文字串的特征图。
由此,本文提出了位置敏感注意力模块(PMA),一次性捕获所有的文本特征然后送入后续的文本识别模块。PMA模块由IMA模块和CMA模块组成,其中IMA模块负责生成文本实例级别的注意力掩码,并将不同实例的特征分配到不同的特征通道,特征图维度为S^2xHxW。CMA模块负责生成字符级别的注意力掩码,为后续的识别任务提供更加细粒度的特征,维度为S^2xLxHxW。
注意力图与原特征图的融合过程类似于Self-Attention的过程,直接将特征图进行转置后与注意力图进行矩阵相乘,得到了新的序列信息特征图。         

1.3    序列解码模块

PMA模块的输出维度为S^2xLxC,序列解码模块将特征送入BiLSTM或Transformer学习序列关系,然后通过全连接层输出字符序列。

1.4    中心线分割模块

通过上述两个模块,模型能够分别输出S^2个网格的预测结果。但是当图像中有两个以上的文本实例时,需要根据文本检测的结果区分文本实例。由于提出的方法不依赖于准确的文本检测边界,因此可以应用任意文本检测方法(例如RPN和YOLO等)来获取文本实例的粗略位置信息,从而确定输出应该选取哪个格子。考虑到场景文本可能是任意形状的,参考PSENet[3]学习全局的文本中心线分割用以提供粗略文本位置信息。

1.5    模型优化

IMA和CMA模块可以使网络专注于特定的文本实例和字符位置,但是实际应用中字符级别的文本标注获取成本高,理论上只能通过识别部分回传的梯度来学习模型。但是在复杂场景中,如果没有位置信息的帮助,网络可能难以收敛。同时我们发现如果模型使用字符级监督在合成数据集上进行了预训练,则可以简单地迁移到其他场景数据集。因此,可以分两步对模型进行优化,首先在预训练阶段通过如下损失函数优化:

然后模型即可简单地在任意场景下通过如下损失函数优化:

2.     实验

2.1 端到端识别性能评价

ICDAR2013和ICDAR2015实验结果如下:

Total-Text和CTW1500实验结果如下: 

2.2 消融实验

如上所述,模型可以仅使用粗略文本位置信息训练。为了证明这一点,在倾斜文本数据集ICDAR2015和弯曲文本数据集Total-Text上使用矩形框标注替代原始标注进行训练。从Table5中可以看出仅使用粗略文本位置信息进行训练也可以达到较好的识别效果。

2.3  CCPD实验结果

为了验证提出算法的泛化能力,在CCPD车牌数据集上进行验证。由于CCPD车牌数据集每张图像仅包含一个车牌,因此设置S=1,去除检测分支以及IMA模块,使得MANGO退化为单文本识别算法。这也启发我们,在一些大图中,如果先验的知道仅包含一个文本串,模型是可以无需任何检测标定而直接进行端到端的大图识别。

2.4  可视化

三、总结


本文提出一种字符串级别的单阶段端到端文字识别算法,摆脱了以往的需要先检测文字精确边界,再通过RoI技术(包含形变矫正技术)抠下小图再进行后续识别的流程。整个流程中将检测和识别解耦成互不依赖的两个独立任务,识别任务经过MaskAttention辅助提供字符串级别和字符级别的引导信息,达到了直接在大图中识别出单个文字串的目的。整体算法以更简洁的方式在多个公开数据及上达到了SOTA的性能水平。 

四、一些思考


整个框架在文字识别领域是非常新颖的,但也存在一些问题:
-由于大矩阵乘法的存在,模型显存占用和计算量会较大,如CMA模块计算需要占用S^2xLxHxW显存。
-模型需要针对不同的数据集设置不同大小的格子数量S以实现精度、速度以及内存占用的权衡。

后续可能改进方向:由于生成的是全局的注意力掩码,因此特征图大部分位置的值都为0,后续可以考虑将特征图映射到另一个特征空间,减少因为信息冗余带来的计算量和显存消耗。

论文下载地址



  • arxiv:https://arxiv.org/pdf/2012.04350.pdf
  • https://davar-lab.github.io/publication.html 

参考文献



[1] Xing, L.;Tian, Z.; Huang, W.; and Scott, M. R. 2019. Convolutional character networks.In ICCV, 9126–9136.

[2] Wang, X.; Zhang, R.; Kong, T.; Li, L.; and Shen, C.2020c. SOLOv2: Dynamic, Faster and Stronger. arXiv preprint arXiv:2003.10152

[3] Wang, W.; Xie, E.; Li, X.; Hou, W.;Lu, T.; Yu, G.; and Shao, S. 2019a. Shape Robust Text Detection With Progressive Scale Expansion Network. In CVPR, 9336–9345. 



原文作者:Liang Qiao, Ying Chen, Zhanzhan Cheng, Yunlu Xu, Yi Niu, Shiliang Pu, FeiWu
撰稿:陈 颖编排:高 学

审校:连宙辉

发布:金连文



免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。 


往期精彩内容回顾

欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。


扫描二维码,关注我们:D





您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存